Запустим blastn с алгоритмом megablast, используя в качестве входных данных заданный 300-нуклеотидный фрагмент. В выдаче программы содержится одна находка - Methanocella paludicola SANAE chromosome, complete genome. Организм - Methanocella paludicola SANAE (домен археи), АС находки – NC_013665.1, координаты фрагмента в записи – 1145-1444. Фрагмент кодирует гомолог белка контроля клеточного деления 6.
Для работы мной был выбран белок ODC1 (орнитин декарбоксилаза), и получена его последовательность (файл по этой ссылке). На запрос на сайте ENA по этой последовательности в геноме африканского слона лучшая находка - SuperContig scaffold_20: 20,110,966-20,115,282, с длиной выравнивания 461 , E-value 1E-255 и идентичностью 94%. В последовательности содержится 9 интронов. Можно сказать, что гомолог достаточно близкий, что объясняется принадлежностью организмов к одному классу.
Для заданной бактерии (Serratia proteamaculans) выберем какую-нибудь некодирующую последовательность РНК. Для этого откроем через SRS запись о полном геноме бактерии, найдёт там участок, кодирующий тРНК. Пусть это будет тРНК, связывающаяся с пролином. По её координатам вырезаем участок из последовательности генома, сохраняем в отдельный файл. Теперь проведём BLAST этой последовательности по банку RefSeq Genomic только для последовательностей бактерий порядка Enterobacteriales, к котрому принадлежит Serretia proteamaculans, с помощью различных организмов. Результаты представлены в таблице 1.
Таблица 1.
Алгоритм | E-value лучшей находки | Число находок |
megablast | 2e-32 | >1000 |
blastn (параметры по умолчанию) | 2e-31 | >1000 |
blastn (длина слова = 7, match/mismatch = 1/-1) | 2e-26 | >1000 |
Во всёх трёх поисках лучшие находки относятся к семейству Enterobacteriaceae. Вероятно, такие результаты поиска связаны с большим числом изученных видов этого семейства.